当前位置:100EC>数字生活>美团发布原生多模态 LongCat-Next:把物理世界变成 AI “文字”
美团发布原生多模态 LongCat-Next:把物理世界变成 AI “文字”
网经社发布时间:2026年03月27日 11:15:58

(网经社讯)物理世界的信息由图像、声音、文字交织而成,但通往真正物理世界智能的边界,绝不仅仅是语言。近日,美团发布并全面开源原生多模态大模型 LongCat-Next 及其核心组件——离散原生分辨率视觉分词器(dNaViT)。

图片.png

▲美团发布原生多模态LongCat-Next:让视觉和语音成为AI“母语”(资料图)

据网经社数字生活台(DL.100EC.CN)了解,该模型打破了当前大模型以“语言为中心”的传统拼凑式架构,将图像、语音与文本统一映射为同源的离散 Token。通过纯粹的“下一个 Token 预测”(Next Token Prediction,NTP)范式,LongCat-Next 让视觉与语音成为 AI 的“原生母语”。这不仅是一次底层架构的革新,更是美团 LongCat 团队在通往物理世界 AI 道路上迈出的坚实一步。

打破模态壁垒:赋予 AI 物理世界的“统一母语”

今天的主流多模态大模型,本质上仍是"语言基座 + 外挂视觉/语音模块"的拼凑系统。非语言模态往往只作为辅助组件被"投影"到语言空间,导致图像的理解(依赖对齐机制)与生成(依赖扩散模型)在结构与优化上长期割裂。

能否让 AI 像处理语言一样,用同一种方式简洁有效地处理物理世界的多种信息?

图片.png

▲LongCat-Next 架构概览,该架构基于DiNA范式设计(资料图)

美团 LongCat 团队给出了肯定的答案。通过构建 DiNA(Discrete Native Autoregressive)离散原生自回归架构,LongCat-Next 将所有模态统一为离散 Token,并共享同一个自回归骨干。无论输入的是文字、图像还是音频,模型都使用同一套参数、同一个注意力机制和同一个损失函数。

在这一极简架构下,视觉的“看”与“画”、听觉的“听”与“说”,不再是异构模块的拼接,而是同一套预测逻辑的自然涌现。给定图像预测文字是“理解”,给定文字预测图像是“生成”——两者在数学形式上完全一致,不再割裂,多模态信息真正实现了更深层的模态“内化”。

三大核心技术,重塑多模态底层逻辑

为了让物理世界的信号真正转化为 AI 的“母语”,LongCat-Next 实现了三项关键技术突破:

第一,离散原生自回归架构(DiNA)彻底打破模态隔阂。

以 LongCat-Flash-Lite MoE(总参数 68.5B,激活参数仅 3B)为基座,DiNA 让所有模态共享同一个自回归骨干,训练时更稳定,部署时更轻量。实验表明,DiNA 的 MoE 路由在训练中逐渐出现模态专精化——激活专家数量相比纯语言设置有所增加,模型正在用更大容量支撑能力扩展。与此同时,不同模态的 Token 表征在表示空间中自然融合(t-SNE 可视化可见),MoE 专家自发形成模态偏好分化。这表明模型并非在“对齐模态”,而是在内部形成了统一的多模态表征结构——从“对齐”走向了真正的“内化”。

第二,离散原生分辨率视觉分词器(dNaViT)构造视觉世界的“词典”。

dNaViT 相当于视觉领域的“分词器”,将图像拆解为一系列有意义的“视觉词汇”,成功实现了“image → Token → image”的完整闭环——既用于“看懂”图像,也用于“画出”图像。这其中包括了三项关键设计。

原生任意分辨率支持:不做缩放、裁剪与填充,完整保留画面每一处细节,dNaViT 实现了任意分辨率的图像编码与解码——在文档解析(OCR)、复杂图表推理等对细节敏感的任务中具备优势,并在 OmniDocBench、OCRBench 等密集文本场景的测试中均表现优异;

8 层残差向量量化(RVQ):通过8层级联递归拟合“残差中的残差”,实现高达 28 倍的极致像素空间压缩;解码时,DepthTransformer 将多级 Token 合并重建,让压缩与还原高效协同;

解耦双轨生成解码器:离散 Token 还原图像时,先由“结构像素解码器”还原布局,再由“扩散像素细化器”注入纹理细节,解耦设计降低生成方差,确保文本渲染清晰无损。

值得强调的是,在 LongCat-Next 中,视觉 Token 完成的仅是图像到离散 ID 的映射,真正的视觉表征是在语言模型内部通过 embedding 原生学习得到的。模型不是"接入视觉能力",而是在内部学习并形成了自己的视觉语言——这种从“借用模态”到“内生模态”的转变,正是原生多模态建模的核心所在。

第三,语义对齐完备编码器破解“离散化必然损失信息”的行业难题。

团队引入 SAE(Semantic-and-Aligned Encoder)范式。不同于以对比学习为主的模型(如 SigLIP),SAE 通过大规模视觉-语言监督(涵盖图像描述、视觉问答乃至视觉推理等任务),学习高信息密度、多属性的表征。这类表征不仅具备丰富的语义结构,同时在网络残差传递机制下,底层视觉细节能够持续向高层传播,在抽象语义中保留颜色、纹理与空间结构等细粒度信息,为离散 Token 的语义完备性提供基础。在此之上,多级残差向量量化(Residual Vector Quantization, RVQ)机制,对表征进行逐级离散建模,在有限离散空间内逼近高维连续表示,从而在压缩率与信息保真之间取得平衡。

最终得到的离散视觉 Token,不仅能够支撑细粒度理解任务(例如在密集文本识别中优于连续表征模型),同时也具备高保真的图像重建能力。这表明:离散表示并非信息的退化形式,而可以成为统一理解与生成的完备表达载体。

实证破局:打破三大行业刻板印象

LongCat-Next 在视觉理解、图像生成、音频、智能体等多个维度的基准测试中,以一套离散原生框架,展现出与多模态专用模型相当甚至领先的性能,验证了三个关键发现。

图片.png

▲LongCat-Next 的基准测试性能(资料图)

发现一:离散视觉没有天花板。

行业曾普遍认为,离散模型在细粒度文本识别上必然不如连续模型。但 LongCat-Next 在 OmniDocBench(学术论文、财报、行政表格)上取得 0.152 / 0.226 的成绩,不仅超越 Qwen3-Omni,还超过了专用视觉模型 Qwen3-VL。离散化不是细粒度感知的天花板,关键在于如何构建语义完备的离散视觉表征。

发现二:理解与生成可以协同。

传统观点认为,单一模型难以兼顾理解与生成。但 LongCat-Next 证明了两者不仅不冲突,反而表现出协同潜力:统一模型的理解损失仅比纯理解模型高 0.006,而生成损失比纯生成模型低 0.02。在图像生成上,GenEval(84.44)、LongText-Bench (英文 93.15)等基准测试结果均显著超越 BAGEL 等统一模型;在图像理解上,MathVista(83.1)达到行业领先水平。

发现三:统一框架不折损语言能力,在智能体与音频上形成跨模态协同。

在纯文本任务上,LongCat-Next 的 MMLU-Pro(77.02)和 C-Eval(86.80)表现领先,证明原生多模态训练未削弱语言核心能力。在工具调用上,τ²-Bench 零售场景(73.68)大幅领先 Qwen3-Next-80B-A3B-Instruct(57.3);在代码能力上,SWE-Bench(43.0)显著超越同类模型。

在音频领域,TTS 任务 SeedTTS 中文 WER 低至 1.90、英文 WER 低至 1.89;音频理解 MMAU(76.40)、TUT2017(43.09)均达到先进水平。模型同时支持低延迟并行文本语音生成与可定制语音克隆,让语音交互更自然、更个性化。

全面开源,共建物理世界 AI 基石

“作为一个初步的尝试,我们展示了一个有意义的视角:物理世界的信息可以被离散化、统一化、像语言一样被建模,让 AI 第一次能够像处理文字一样原生地理解物理世界的多模态信号。美团 LongCat 团队相关负责人表示,“我们期待,有一天 AI 能真正‘看懂’物理世界的每一个角落、‘听懂’顾客的每一句话、理解物理世界的每一条规律。”

在他看来,LongCat-Next 以小尺寸验证了原生离散架构的潜力,是通往物理世界 AI 道路上的一块重要基石,但未来仍有非常多且重要的方向尚未被充分探索——这恰恰是未来研究的机遇所在。

目前,LongCat-Next 模型、dNaViT 分词器及相关技术报告全面开源,开发者可通过以下链接获取资源:

Paper: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf

GitHub: https://github.com/meituan-longcat/LongCat-Next

HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Next

更多体验前往:

Demo: https://longcat.chat/longcat-next

Blog: https://longcat.chat/longcat-next/intro

浙江网经社信息科技公司拥有18年历史,作为中国领先的数字经济新媒体、服务商,提供“媒体+智库”、“会员+孵化”服务;(1)面向电商平台、头部服务商等PR条线提供媒体传播服务;(2)面向各类企事业单位、政府部门、培训机构、电商平台等提供智库服务;(3)面向各类电商渠道方、品牌方、商家、供应链公司等提供“千电万商”生态圈服务;(4)面向各类初创公司提供创业孵化器服务。

网经社“电数宝”电商大数据库(DATA.100EC.CN,免费注册体验全库)基于电商行业18年沉淀,包含100+上市公司、新三板公司数据,150+独角兽、200+千里马公司数据,4000+起投融资数据以及10万+互联网APP数据,全面覆盖“头部+腰部+长尾”电商,旨在通过数据可视化形式帮助了解电商行业,挖掘行业市场潜力,助力企业决策,做电商人研究、决策的“好参谋”。

【关键词】 美团大模型原创
【投诉曝光】 更多>

【版权声明】秉承互联网开放、包容的精神,网经社欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源网经社;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至NEWS@netsun.com,我们将第一时间核实、处理。

        平台名称
        平台回复率
        回复时效性
        用户满意度
          微信公众号
          微信二维码 打开微信“扫一扫”
          微信小程序
          小程序二维码 打开微信“扫一扫”